适当地表示数据库中的元素,以便可以准确匹配查询是信息检索的核心任务;最近,通过使用各种指标将数据库的图形结构嵌入层次结构的方式中来实现。持久性同源性是一种在拓扑数据分析中常用的工具,能够严格地以其层次结构和连接结构来表征数据库。计算各种嵌入式数据集上的持续同源性表明,一些常用的嵌入式无法保留连接性。我们表明,那些成功保留数据库拓扑的嵌入通过引入两种扩张不变的比较措施来捕获这种效果,尤其是解决了对流形的度量扭曲问题。我们为它们的计算提供了一种算法,该算法大大降低了现有方法的时间复杂性。我们使用这些措施来执行基于拓扑的信息检索的第一个实例,并证明了其在持久同源性的标准瓶颈距离上的性能提高。我们在不同数据品种的数据库中展示了我们的方法,包括文本,视频和医学图像。
translated by 谷歌翻译